与明星一起学数据、数据可视化和统计

Arvind V.

Invalid Date

议程!

  • Orange?这 Orange 是什么玩意儿?
  • 与布拉德·皮特一起把一切抛之脑后:数据汇总
  • 与夏洛克·福尔摩斯一起数字母:柱状图
  • 与本·阿弗莱克一起唱童谣:折线图
  • 与凯蒂·莱德基一起当美人鱼:箱线图
  • 杰克和罗丝从此过上了幸福的生活:马赛克图
  • 与加巴尔·辛格一起掌握惊喜的艺术:排列检验

Orange?这 Orange 是什么玩意儿?

Orange 是一个可视化的拖放式工具,用于

  • 数据可视化
  • 统计检验
  • 机器学习
  • 数据挖掘

等等。你可以从这里下载和安装 Orange:

https://orangedatamining.com/download/

Figure 1: Orange 数据挖掘 GUI

Orange 的基本用法

小部件和通道

Orange 的可视化界面

让我们用 Orange 创建一些简单的可视化。

  • 使用 文件小部件iris 数据集导入到你的会话中
  • 使用 数据表小部件 查看数据,并注意其变量名
  • 使用 可视化小部件(散点图、柱状图和分布图)查看变量的属性,并检查它们之间的关系。

数据看起来是什么样的?

变量 类型

变量 类型

整洁数据

整洁数据

Orange 练习环节 #1

  • 让我们使用 数据集 小部件
  • 点击它选择一个内置的 CSV 文件:Auto MPG
  • 让我们使用 数据表 小部件查看数据
  • 并使用 散点图 小部件创建散点图(马力 vs 排量)
  • 尝试左侧的菜单选项,看看它们如何改变图表

布拉德·皮特:把一切抛之脑后

布拉德·皮特:把一切抛之脑后

统计智慧的支柱

史蒂文·斯蒂格勒(Steven Stigler, 2016)在《统计智慧的七大支柱》中写道:

  • 统计学的重要思想之一是:聚合
  • 它为什么具有革命性?
  • 通过规定,给定多个观察值,你实际上可以通过丢弃信息来获得信息
  • 在计算简单的算术平均值时,我们丢弃了测量值的个体性,将它们归并到一个汇总中。

布拉德·皮特:把一切抛之脑后

他在扔掉什么?

所有”变量”

  • 年龄
  • 之前的赛季
  • 腰围
  • 跑步机测试分数
  • 挥棒速度?
  • 抽大麻?
  • 女朋友?
  • 女朋友外貌评分?
  • 走路像鸭子?
  • 看起来很怪?

他只看…

OBP 数据

OBP 数据

我们如何丢弃数据?

在绘制单个图表之前,最好先查看一些汇总所考虑数据集的数字。这些可能是什么?一些明显有用的数字是:

  • 数据集长度:多少行/观察值?
  • 数据集宽度:多少列/变量?
  • 多少个定量变量?
  • 多少个定性变量?
  • 定量变量:最小值、最大值、均值、中位数、标准差
  • 定性变量:水平、每个水平的计数
  • 两者:定性变量每个水平的均值、中位数…

Orange 练习环节 #2

  • 那么现在 我们 要丢弃什么?如何丢弃?
  • 让我们查看现有的数据集 Auto MPG
  • 拖入 特征统计 小部件
  • 数据集 小部件连接到 特征统计 小部件
  • 欣赏生成的汇总统计信息

等等,为什么?

  • 汇总就是理解
  • 加上这个事实,我们的工作记忆只能容纳大约 7 个项目,所以也意味着信息保留。
  • 博尔赫斯写道,“思考就是忘记细节,概括,做出抽象。”在“《记忆广博的富内斯》”的熙攘世界里,只有细节。
  • 布拉德·皮特 aka 比利·比恩(Billy Beane)正在丢弃细节,查看聚合后的图景来挑选他未来的奥克兰运动家队。

与夏洛克·福尔摩斯一起数字母

夏洛克·福尔摩斯:跳舞人之谜

在夏洛克·福尔摩斯的故事《跳舞的人》中,一个角色认识的罪犯使用像这样的孩子气/稚嫩的图画与她交流:

Am Here, Abe Slaney

Am Here, Abe Slaney

福尔摩斯会如何破解这条消息?

夏洛克·福尔摩斯:跳舞人之谜

  • 使用推测:
  • 符号 -> 字母
  • 基于众所周知的字母计数(齐普夫定律)
  • 福尔摩斯推断出消息中最常见的字母是 “E”
  • 然后他推断出第二常见的字母是 “T”

齐普夫定律

齐普夫定律

哪些图表适合计数?

变量 #1 变量 #2 图表名称 图表形状
定性 柱状图

  • 柱状图用于显示定性变量的”计数”和” tally”。
  • 例如,在调查中,多少人与性别?
  • 每周消费的目标受众调查中,有多少低、中或高消费人群?
  • 注意:我们用定性变量计数!(为什么?我们计算标签,比如字母。)
  • 这就是为什么柱子互不接触。

Orange 练习环节 #3

被禁书籍!!!

好的,让我们获取一些数据进行计数:

现在让我们在 Orange 中使用预设的工作流

下载 Orange 柱状图工作流

  • 我们将查看数据
  • 制作数据字典
  • 识别定性和定量变量
  • 准备计数和针对定性变量的柱状图
  • 在 Orange 中!点击,查看!

数据字典

定性变量

  • Author:书籍作者(定性)
  • Title:书名(定性)
  • Origin:挑战来源(定性)
  • Type of Ban:书籍禁令类型(定性)
  • State:书籍被禁的州(定性)
  • District:书籍被禁的地区(定性)
  • Origin:挑战来源(定性)

定量变量

统计我们的数据

研究问题

某些州是否比其他州禁更多书?

这里的故事是什么?

  • 德克萨斯州是禁书最严重的!
  • 德克萨斯州、佛罗里达州、俄克拉荷马州、堪萨斯州、印第安纳州…紧随其后
  • 这里有”圣经地带”的故事吗?
Figure 2: 圣经 地带

统计我们的数据

研究问题

对书籍实施的禁令有哪些类型?每种禁令类型禁了多少本书?

这里的故事是什么?

  • 禁书有四个原因
  • “调查”是最常见的禁书类型
  • 如何”调查”一本书???

等等,为什么?

  • 计数首先给你你有多少数据的绝对感觉
  • 按不同定性变量计数给你数据中组合的感觉: (State) * (District) * (Ban)
  • 计数然后给出你的数据是否不平衡的想法
  • 由于柱状图中的 x 轴是定性的(柱子不接触,记得!),因此可以随意对柱子进行排序。

与本·阿弗莱克一起唱童谣

与本·阿弗莱克一起唱童谣

  • 在《会计刺客》中,克里斯蒂安·沃尔夫被听到背诵”所罗门·格伦迪”,
  • 这首童谣讲述了一个名叫所罗门·格伦迪的人的一生和死亡,都在一周内
  • 它最初是用来帮助孩子们学习一周几天的。
  • 然而,当我们考虑到周四到周日详细说明了格伦迪先生因某种不明疾病而悲惨地结束…
  • 很难忽视黑暗的暗示。

这里的数据是什么?图表呢?

  • 数据是一周的日子
  • 数据是每天发生的事件数量
  • y 变量是定量变量,一个数字
  • x 变量也是定量变量,一个时间变量

Note

游客:这附近出生过什么名人吗?
导游:没有先生,我们最多只能生产婴儿。

时间序列的折线图

时间序列的折线图

为我们的数据计时

好的,让我们获取一些数据进行绘图:

现在让我们在 Orange 中使用预设的工作流

下载 Orange 时间序列工作流

  • 我们将查看数据
  • 制作数据字典
  • 识别定性和定量变量
  • 准备定量变量和定性变量的时间序列图表

数据字典

定性变量

  • year:出生年份(定性)
  • month:一年中的月份(定性)
  • day_of_month:月份中的日子(定性)
  • day_of_week:一周中的日子(定性)

定量变量

  • births:当天的出生数量(定量)

Orange 练习环节 #4

  • 数据是美国每天、每月、每年的出生数量
  • 让我们使用 分组 小部件按 day_of_week 分组
  • 并在同一小部件中计算 mean(births)
  • 我们绘制 mean(births) vs month,并按 day_of_week 着色

平均出生时间序列

平均出生时间序列

等等,为什么?

  • 时间序列数据是一种特殊的定量数据,其中 x 变量是时间变量。
  • y 变量是定量变量,一个数字。
  • x 变量是定量变量,一个时间变量。
  • 通过按 day_of_week 着色,我们可以看到出生数量如何在一周的日子里变化。

这里的故事是什么?

  • 周末医院可能会人手不足吗?
  • 这是”显示偏好”的事情吗?
  • 还是应该看《实习医生格蕾》,或者《豪斯医生》?

与凯蒂·莱德基一起当美人鱼

与凯蒂·莱德基一起当美人鱼

  • 凯蒂·莱德基是一名游泳运动员,也是美人鱼。
  • 她赢得了 7 枚奥运金牌和 15 枚世锦赛金牌。
  • 她是 400、800 和 1500 米自由泳,以及 4x100 米自由泳接力和 4x200 米自由泳接力的世界纪录保持者。
  • 这让她成为什么?异常值

那么我们如何找到并显示异常值?

  • 异常值是与其余数据显著不同的数据点。
  • 它们可以使用箱线图来识别,箱线图显示数据的分布。
  • 箱线图显示数据的中位数、四分位数和异常值。
  • 当然,莱德基水里!好 在

与凯蒂·莱德基一起成为异常值

  • 让我们获取一些数据进行绘图:

数据字典

定性变量

  • rank:学术职级(定性)
  • discipline:学术学科(定性)
  • sex:男/女

定量变量

  • yrs.since.phd:获得博士学位后的年限(定量)。可以是定性??
  • yrs.service`:服务年限(定量)
  • salary:学术薪水(定量)
Figure 3: 薪水数据 表

研究问题 #1

问题

Q1. salary 的分布是什么?如果我们按 sex 分割呢?

Figure 4: 薪水箱线图
Figure 5: 按性别分组的薪水箱线图

研究问题 #2

问题

Q2. 当我们按其他定性变量(如 rank)分割时,salary 的分布是什么?

Figure 6: 按职级分组的薪水箱线图

等等,为什么?

  • 箱线图告诉我们定量变量的分布,并显示异常值。
  • 它们显示数据的中位数、四分位数和异常值。
  • 它们用于比较定性变量之间的定量变量分布。(例如性别或职级)

这里的故事是什么?

  • 薪水中可能存在系统性偏差吗?
  • 统计 t 检验 / 方差分析 会告诉我们这是否属实。
  • 在图中查找底部的 t 检验方差分析报告。

杰克和罗丝从此过上了幸福的生活

杰克和罗丝从此过上了幸福的生活?

  • 泰坦尼克号于 1912 年 4 月 15 日沉没,撞击冰山后。
  • 杰克幸存的机会有多大?
  • 他的机会取决于什么?

杰克和罗丝从此过上了幸福的生活?

  • 让我们使用 Orange 中的 数据集 小部件获取 titanic 数据。

  • 根据此数据集,有 2201 名乘客。

  • 让我们在 Orange 中使用预设的工作流

下载 Orange 马赛克图工作流

数据字典:titanic

定量数据

无。

定性数据

  • survived:(chr) 是或否
  • status:(chr) 旅行舱位,否则是”船员”
  • age:(chr) 成人,儿童
  • sex:(chr) 男/女。

我们将选择什么样的数据变量?

变量 #1 变量 #2 图表名称 图表形状
定性 定性 饼图,马赛克图

这里,area \sim count,所以图块的面积与该图块中的观察值计数成比例。

研究问题 #1

Note

survivedsex 的依赖性是什么?

Note

  • 注意 sexsurvived 巨大不平衡
  • 男性死亡人数明显多于女性。
  • 着色显示死亡男性的巨大残差,以及死亡女性的巨大 残差

所以遗憾的是,杰克死亡的可能性远高于罗丝。

研究问题 #2

survived 如何依赖于 status

Note

  • 船员大量死亡,
    • 如船员幸存的巨大*负残差 所示。
  • 头等舱乘客能够快速到达船只,幸存比例高于二等或三等舱。
  • 头等舱幸存者有巨大的[残差]{style=“color: blue;”。
  • 罗丝乘坐头等舱,杰克乘坐三等舱。所以几率再次对他不利。

这些残差到底是什么?

当实际计数与预期计数之间的差异很大时,我们推断一个定性变量对另一个定性变量有影响。(从计数角度或比率角度)

等等,为什么?

  • 马赛克图用于显示两个定性变量之间的关系。
  • 它们显示两个定性变量的每个组合中的观察值计数。
  • 每个图块的面积与该图块中的观察值计数成比例
  • 图块的颜色显示残差,这是实际计数与预期计数之间的差异。

与加巴尔·辛格一起掌握惊喜的艺术

与加巴尔·辛格一起掌握惊喜的艺术

与加巴尔·辛格一起掌握惊喜的艺术

  • 加巴尔看到的”数据”是什么?
弹膛 子弹
1 Y / N
2 Y / N
..
6 Y / N
  • 村庄的人数和持有武器的人数。(定量)
  • 枪中的子弹数量(定量)
  • 包含子弹的手枪弹膛 ID(定性)

与加巴尔·辛格一起掌握惊喜的艺术

那么加巴尔的假设呢?

  • 三颗子弹永远不会排成一队准备发射,特别是他已经发射了三颗之后!!
  • 所以他可以声称”无知”!
  • “无知” == “公平” == “正义”!
  • 但当三颗子弹排成一队时,他假装惊讶,并且可以一下子把它们全部发射!
  • 但没有人能指责他任何事情,因为他”不知道”子弹排成一队的事实!

加巴尔的枪弹膛排列

那么我们如何成为加巴尔·辛格?

在美国,种族(通过名字揭示)是否是种族歧视的基础?

此数据集是由玛丽安·伯特兰和森蒂尔·穆拉伊纳森进行的一项里程碑式研究的一部分生成的。

阅读其中的描述,以真正了解如何通过精心设计的研究实验来证明因果关系

与加巴尔·辛格一起掌握惊喜的艺术

  • 因此,两个种族 afamcauc 的电话百分比似乎不同
  • 但这在统计上显著吗?加巴尔会感到惊讶吗?
  • 让我们假装 ethnicity 无关紧要并旋转左轮手枪!!
  • 我们搞乱种族变量大约 5000 次

与加巴尔·辛格一起掌握惊喜的艺术

  • 我们无法模仿大自然母亲 aka 现实
  • 红线是观察到的比例差异,它远远超出了零分布。
  • 所以我们可以拒绝 ethnicity 无关紧要的零假设。
  • 因此我们推断招聘过程中存在偏见,并且 afam 候选人受到歧视。

加巴尔与统计学老师

加巴尔 统计学老师
“有多少人?” 你有多少观察值?n < 30 是个笑话。
你明白什么来的吗?加巴尔会高兴吗?会表扬吗? 你的因子有哪些水平?它们是二元的吗?暂时不要做方差分析!
(开了三枪)是的,现在好了! 是的,现在数据集相对于因子(处理和对照)是平衡的。
这把手枪里有三条命和三条死。看看谁得到什么。 这是我们的研究问题,我们将为此设计一个实验。
我们什么都不知道! 让我们对此因子进行非参数排列检验!
太棒了! 太棒了!我们的 p 值太小,可以拒绝零假设!!

谢谢!!

问题?评论?建议?

arvind.venkatadri@gmail.com

此演讲:https://av-quarto.netlify.app/content/projects/modules/talks/vizchitra25/

数据和工作流文件可在 https://www.dropbox.com/scl/fo/15ha6pmtqd3t17c39idxi/AEviMggAcido-xQHiD82dH4?rlkey=h9xj09pdtx3st9basdfljwwyw&st=06dvqnbb&dl=0 获得